Interoperability issue is a significant problem in Building Information Modeling (BIM). Object type, as a kind of critical semantic information needed in multiple BIM applications like scan-to-BIM and code compliance checking, also suffers when exchanging BIM data or creating models using software of other domains. It can be supplemented using deep learning. Current deep learning methods mainly learn from the shape information of BIM objects for classification, leaving relational information inherent in the BIM context unused. To address this issue, we introduce a two-branch geometric-relational deep learning framework. It boosts previous geometric classification methods with relational information. We also present a BIM object dataset IFCNet++, which contains both geometric and relational information about the objects. Experiments show that our framework can be flexibly adapted to different geometric methods. And relational features do act as a bonus to general geometric learning methods, obviously improving their classification performance, thus reducing the manual labor of checking models and improving the practical value of enriched BIM models.
translated by 谷歌翻译
安全与其他交通参与者的互动是自动驾驶的核心要求之一,尤其是在交叉点和遮挡中。大多数现有的方法都是为特定场景设计的,需要大量的人工劳动参数调整,以应用于不同情况。为了解决这个问题,我们首先提出了一个基于学习的交互点模型(IPM),该模型描述了代理与保护时间和交互优先级之间的相互作用以统一的方式。我们将提出的IPM进一步整合到一个新颖的计划框架中,通过在高度动态的环境中的全面模拟来证明其有效性和鲁棒性。
translated by 谷歌翻译
近年来,深度学习的时间序列增加了。对于时间序列的异常检测方案,例如金融,物联网,数据中心操作等,时间序列通常会根据各种外部因素显示非常灵活的基线。异常通过躺在远离基线的情况下揭示自己。但是,由于一些挑战,包括基线转换,缺乏标签,噪声干扰,流数据中的实时检测,可解释性等。从时间序列,即深基线网络(DBLN)。通过使用此深层网络,我们可以轻松地定位基线位置,然后提供可靠且可解释的异常检测结果。对合成和公共现实世界数据集的经验评估表明,我们纯粹的无监督算法与最新方法相比,实现了卓越的性能,并且具有良好的实际应用。
translated by 谷歌翻译
机器人钉孔组装是机器人自动化研究中的重要任务。加强学习(RL)与深度神经网络(DNN)相结合,导致了这一领域的非凡成就。但是,在融合应用程序的独特环境和任务要求下,当前基于RL的方法几乎无法表现出色。因此,我们提出了一种新设计的基于RL的方法。此外,与其他方法不同,我们专注于DNN的结构而不是RL模型的创新。从RGB摄像机和力/扭矩(F/T)传感器中输入的数据,将其输入到多输入分支网络中,并且当前状态中的最佳动作是由网络输出的。所有训练和实验都是在现实的环境中进行的,从实验结果中,这种多传感器融合方法已显示在不确定和不稳定的环境中具有0.1mm精度的刚性钉钉组装任务中很好地工作。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
高速,高分辨率的立体视频(H2-STEREO)视频使我们能够在细粒度上感知动态3D内容。然而,对商品摄像机的收购H2-STEREO视频仍然具有挑战性。现有的空间超分辨率或时间框架插值方法分别提供了缺乏时间或空间细节的折衷解决方案。为了减轻这个问题,我们提出了一个双摄像头系统,其中一台相机捕获具有丰富空间细节的高空间分辨率低框架速率(HSR-LFR)视频,而另一个摄像头则捕获了低空间分辨率的高架框架-Rate(LSR-HFR)视频带有光滑的时间细节。然后,我们设计了一个学习的信息融合网络(LIFNET),该网络利用跨摄像机冗余,以增强两种相机视图,从而有效地重建H2-STEREO视频。即使在大型差异场景中,我们也利用一个差异网络将时空信息传输到视图上,基于该视图,我们建议使用差异引导的LSR-HFR视图基于差异引导的流量扭曲,并针对HSR-LFR视图进行互补的扭曲。提出了特征域中的多尺度融合方法,以最大程度地减少HSR-LFR视图中闭塞引起的翘曲幽灵和孔。 LIFNET使用YouTube收集的高质量立体视频数据集以端到端的方式进行训练。广泛的实验表明,对于合成数据和摄像头捕获的真实数据,我们的模型均优于现有的最新方法。消融研究探讨了各个方面,包括时空分辨率,摄像头基线,摄像头解理,长/短曝光和应用程序,以充分了解其对潜在应用的能力。
translated by 谷歌翻译
最近,深层神经网络(DNNS)用于减少带宽并提高互联网视频交付的质量。现有的方法训练服务器上每个视频块的相应内容超级分辨率(SR)模型,并将低分辨率(LR)视频块以及SR模型一起流到客户端。尽管他们取得了令人鼓舞的结果,但网络培训的巨大计算成本限制了其实际应用。在本文中,我们提出了一种名为有效元调整(EMT)的方法,以降低计算成本。 EMT没有从头开始训练,而是将元学习的模型适应了输入视频的第一部分。至于以下块,它通过以前的改编模型的梯度掩盖选择了部分参数。为了实现EMT的进一步加速,我们提出了一种新颖的抽样策略,以从视频帧中提取最具挑战性的补丁。拟议的策略高效,带来了可忽略的额外成本。我们的方法大大降低了计算成本并取得更好的性能,为将神经视频传递技术应用于实际应用铺平了道路。我们基于各种有效的SR架构进行了广泛的实验,包括ESPCN,SRCNN,FSRCNN和EDSR-1,证明了我们工作的概括能力。该代码通过\ url {https://github.com/neural-video-delivery/emt-pytorch-eccv2022}发布。
translated by 谷歌翻译
表格数据是业务应用程序中最常见的数据存储格式之一,范围从零售,银行和电子商务。这些应用在很大程度上依赖机器学习模型来取得业务成功。学习表格数据的关键问题之一是将有影响力的特征与所有预定特征区分开。假设所有实例都具有相同的影响力子集,那么全球功能选择已经进行了很长时间。但是,不同的实例依赖于实践中的不同特征子集,这也引起了实例的特征选择,在最近的研究中受到了越来越多的关注。在本文中,我们首先提出了一种新的方法,以发现表格数据的实例影响特征(DIWIFT),其核心是引入影响函数以衡量实例特征的重要性。 Diwift能够在不同实例中自动发现不同尺寸的影响力子集,这与全局特征选择不同,后者考虑了具有相同影响力特征子集的所有实例。另一方面,与以前的实例功能选择不同,DIWIFT最大程度地减少了验证集的验证损失,因此对于训练数据集和测试数据集中存在的分配变化更为强大,这在表格数据中很重要。最后,我们对合成数据集和现实数据集进行了广泛的实验,以验证我们的diwift的有效性,并将其与基线方法进行了比较。此外,我们还通过一些消融实验来证明我们方法的鲁棒性。
translated by 谷歌翻译
离线模仿学习(IL)是从没有奖励标签的专家演示中解决决策问题的强大方法。由于协变量转移,现有的离线IL方法在有限的专家数据下遭受严重的性能变性。但是,包括学习的动力学模型可以潜在地改善专家数据的状态行动空间覆盖范围,但是,它也面临着诸如模型近似/概括/概括性错误和推出数据的次级优势之类的挑战性问题。在本文中,我们提出了基于歧视者指导的基于模型的离线模仿学习(DMIL)框架,该框架引入了一个歧视者,以同时区分模型推出数据的动力学正确性和次优性与真实专家示范。 DMIL采用了一种新颖的合作对抗学习策略,该策略使用歧视者指导和融合了政策和动态模型的学习过程,从而改善了模型性能和鲁棒性。当演示包含大量次优数据时,我们的框架也可以扩展到案例。实验结果表明,与小型数据集下的最新离线IL方法相比,DMIL及其扩展具有出色的性能和鲁棒性。
translated by 谷歌翻译
现有的基于学习的框架插值算法从高速自然视频中提取连续帧以训练模型。与自然视频相比,卡通视频通常处于较低的框架速度。此外,连续卡通框架之间的运动通常是非线性,它破坏了插值算法的线性运动假设。因此,它不适合直接从卡通视频中生成训练集。为了更好地适应从自然视频到动画视频的框架插值算法,我们提出了Autofi,这是一种简单有效的方法,可以自动渲染训练数据,以进行深层动画视频插值。 Autofi采用分层体系结构来渲染合成数据,从而确保线性运动的假设。实验结果表明,Autofi在训练Dain和Anin方面表现出色。但是,大多数框架插值算法仍将在容易出错的区域(例如快速运动或大闭塞)中失败。除了Autofi外,我们还提出了一个名为SKTFI的基于插件的后处理后处理模块,以手动使用用户提供的草图来完善最终结果。借助Autofi和SKTFI,插值动画框架显示出很高的感知质量。
translated by 谷歌翻译